深度学习目前是机器学习中最重要的分支,在语音识别,计算机视觉,图像分类和医学成像分析中的应用。植物识别是可以使用图像分类通过其叶子识别植物物种的领域之一。植物学家通过亲自检查将大量时间用于识别植物物种。本文描述了一种剖析瑞典叶子和识别植物物种的颜色图像的方法。为了实现更高的准确性,该任务是在预先训练的分类器VGG-19的帮助下使用转移学习完成的。分类的四个主要过程是图像预处理,图像增强,特征提取和识别,这些过程是作为整体模型评估的一部分进行的。 VGG-19分类器通过采用预定义的隐藏层(例如卷积层,最大池层和完全连接的层)来掌握叶子的特征,并最终使用Soft-Max层为所有植物类生成特征表示。该模型获得了与瑞典叶数据集的各个方面相关的知识,其中包含15种树类,并有助于预测未知植物的适当类别,准确性为99.70%,这比以前报告的研究工作高。
translated by 谷歌翻译
有效的视觉在延迟预算下的精度最大化。这些作品一次评估脱机准确性,一次是一张图像。但是,诸如自动驾驶之类的实时视觉应用在流媒体设置中运行,在这些设置中,地面真相在推理开始和终点之间会发生变化。这会导致明显的准确性下降。因此,最近提出的一项旨在最大程度地提高流媒体设置准确性的工作。在本文中,我们建议在每个环境环境中最大化流的准确性。我们认为场景难度会影响初始(离线)精度差异,而场景中的障碍物位移会影响后续的准确性降解。我们的方法章鱼使用这些方案属性来选择在测试时最大化流量准确性的配置。我们的方法将跟踪性能(S-MOTA)提高了7.4%,而常规静态方法则提高了。此外,使用我们的方法提高性能,而不是离线准确性的进步,而不是代替而不是进步。
translated by 谷歌翻译
眼底图像中血管的自动分割可以帮助分析视网膜脉管系统的状况,这对于确定各种全身性疾病(如高血压,糖尿病等)至关重要大量参数化,因此在实际应用中使用有限。本文提出了Itermiunet,这是一种新的基于轻量级卷积的细分模型,需要更少的参数,但提供了类似于现有模型的性能。该模型利用了ITERNET体系结构的出色分割功能,但通过将Miunet模型的编码器解码器结合在其中克服了严重的参数化性质。因此,新模型可减少参数,而不会与网络的深度进行任何妥协,这对于在深模型中学习抽象的层次概念是必不可少的。这种轻巧的分割模型可以加快训练和推理时间的速度,并且在数据稀缺的医疗领域可能会有所帮助,因此,大量参数化的模型往往过于拟合。在三个公开可用的数据集上评估了所提出的模型:驱动器,凝视和Chase-DB1。还进行了进一步的交叉培训和评估者之间的变异性评估。提出的模型具有很大的潜力,可以用作早期诊断许多疾病的工具。
translated by 谷歌翻译
经验重播方法是加固学习(RL)算法的重要组成部分,旨在减轻伪造的相关性和偏见,同时从时间依赖的数据中学习。粗略地说,这些方法使我们能够从大型缓冲液中绘制批处理的数据,从而使这些时间相关性不会妨碍下降算法的性能。在这项实验工作中,我们考虑了最近开发和理论上严格的反向经验重播(RER),该重播已被证明可以消除简化的理论环境中的这种虚假偏见。我们将RER与乐观的经验重播(OER)相结合,以获得RER ++,在神经功能近似下这是稳定的。我们通过实验表明,在各种任务上的优先体验重播(PER)等技术的性能要比计算复杂性明显较小,具有更好的性能。在RL文献中众所周知,选择最大的TD误差(如OER)或形成具有连续数据点(如RER)的迷你批次而贪婪地选择示例。但是,结合这些技术的方法效果很好。
translated by 谷歌翻译
视觉语言导航(VLN)在其视觉环境中遵循语言指令,在该前提是输入命令在环境中完全可行的前提下进行了研究。然而,实际上,由于语言歧义或环境的变化,可能无法提出要求。为了使用未知命令可行性研究VLN,我们引入了一个新的数据集移动应用程序任务,并使用迭代反馈(Motif),目标是在移动应用程序中完成自然语言命令。移动应用程序提供了一个可扩展的域来研究VLN方法的下游用途。此外,移动应用命令为交互式导航提供了指令,因为它们通过单击,键入或刷新而导致状态更改的动作序列。主题是第一个包含可行性注释的主题,其中包含二进制可行性标签和细粒度标签,原因是为什么任务不满意。我们进一步收集了模棱两可的查询的后续问题,以使解决任务不确定性解决。配备了我们的数据集,我们提出了可行性预测的新问题,其中使用自然语言指令和多模式应用程序环境来预测命令的可行性。主题提供了一个更现实的应用数据集,因为它包含许多不同的环境,高级目标和更长的动作序列。我们使用主题评估交互式VLN方法,量化当前方法对新应用环境的概括能力,并衡量任务可行性对导航性能的影响。
translated by 谷歌翻译
人脑解剖图像的专家解释是神经放射学的中心部分。已经提出了几种基于机器学习的技术来协助分析过程。但是,通常需要对ML模型进行培训以执行特定的任务,例如脑肿瘤分割或分类。相应的培训数据不仅需要费力的手动注释,而且人脑MRI中可以存在多种异常 - 甚至同时发生,这使得所有可能的异常情况都非常具有挑战性。因此,可能的解决方案是一种无监督的异常检测(UAD)系统,可以从健康受试者的未标记数据集中学习数据分布,然后应用以检测​​分布样本。然后,这种技术可用于检测异常 - 病变或异常,例如脑肿瘤,而无需明确训练该特定病理的模型。过去已经为此任务提出了几种基于变异的自动编码器(VAE)技术。即使它们在人为模拟的异常情况下表现良好,但其中许多在检测临床数据中的异常情况下表现较差。这项研究提出了“上下文编码” VAE(CEVAE)模型的紧凑版本,并结合了预处理和后处理步骤,创建了UAD管道(Strega)(Strega),该步骤对临床数据更强大,并显示其在检测到其检测方面的适用性脑MRI中的肿瘤等异常。 The proposed pipeline achieved a Dice score of 0.642$\pm$0.101 while detecting tumours in T2w images of the BraTS dataset and 0.859$\pm$0.112 while detecting artificially induced anomalies, while the best performing baseline achieved 0.522$\pm$0.135 and 0.783$\ PM分别为0.111美元。
translated by 谷歌翻译
在本文中,正在研究精神任务 - 根脑 - 计算机接口(BCI)的分类,因为这些系统是BCI中的主要调查领域,因为这些系统可以增强具有严重残疾人的人们的生命。 BCI模型的性能主要取决于通过多个通道获得的特征向量的大小。在心理任务分类的情况下,培训样本的可用性最小。通常,特征选择用于通过摆脱无关紧要和多余的功能来增加心理任务分类的比率。本文提出了一种为精神任务分类选择相关和非冗余频谱特征的方法。这可以通过使用四个非常已知的多变量特征选择方法VIZ,BHATTACHARYA的距离,散射矩阵的比率,线性回归和最小冗余和最大相关性。这项工作还涉及对心理任务分类的多元和单变量特征选择的比较分析。在应用上述方法后,研究结果表明了精神任务分类的学习模型的性能的大量改进。此外,通过执行稳健的排名算法和弗里德曼的统计测试来认识所提出的方法的功效,以找到最佳组合并比较功率谱密度和特征选择方法的不同组合。
translated by 谷歌翻译
由于其对人类生命,运输,粮食生产和能源管理的高度影响,因此在科学上研究了预测天气的问题。目前的运营预测模型基于物理学,并使用超级计算机来模拟大气预测,提前预测数小时和日期。更好的基于物理的预测需要改进模型本身,这可能是一个实质性的科学挑战,以及潜在的分辨率的改进,可以计算令人望而却步。基于神经网络的新出现的天气模型代表天气预报的范式转变:模型学习来自数据的所需变换,而不是依赖于手工编码的物理,并计算效率。然而,对于神经模型,每个额外的辐射时间都会构成大量挑战,因为它需要捕获更大的空间环境并增加预测的不确定性。在这项工作中,我们提出了一个神经网络,能够提前十二小时的大规模降水预测,并且从相同的大气状态开始,该模型能够比最先进的基于物理的模型更高的技能HRRR和HREF目前在美国大陆运营。可解释性分析加强了模型学会模拟先进物理原则的观察。这些结果代表了建立与神经网络有效预测的新范式的实质性步骤。
translated by 谷歌翻译
联合学习(FL)是深度学习的分布式模型,可集成客户端 - 服务器架构,边缘计算和实时智能。 FL具有革命性机器学习(ML)的能力,但由于技术限制,通信开销,非IID(独立和相同分布)数据和隐私问题,缺乏实施的实用性。在异构非IID数据上训练ML模型高度降低了收敛速度和性能。现有的传统和聚集流算法表现出两个主要限制,包括低效的客户端培训和静态超参数利用率。为了克服这些限制,我们提出了一种新的混合算法,即遗传聚类FL(遗传CFL),即基于训练超参数的集群边缘设备,并转基地修改参数集群。然后,我们介绍了一种算法,通过集成基于密度的聚类和遗传超参数优化来介绍大量增加各种聚类准确性。结果是使用Mnist手写数字数据集和CIFAR-10数据集标记的基准标记。所提出的遗传CFL显示出显着的改进,与非IID和模棱两可数据的现实情况良好。
translated by 谷歌翻译
Quadruped robots are currently used in industrial robotics as mechanical aid to automate several routine tasks. However, presently, the usage of such a robot in a domestic setting is still very much a part of the research. This paper discusses the understanding and virtual simulation of such a robot capable of detecting and understanding human emotions, generating its gait, and responding via sounds and expression on a screen. To this end, we use a combination of reinforcement learning and software engineering concepts to simulate a quadruped robot that can understand emotions, navigate through various terrains and detect sound sources, and respond to emotions using audio-visual feedback. This paper aims to establish the framework of simulating a quadruped robot that is emotionally intelligent and can primarily respond to audio-visual stimuli using motor or audio response. The emotion detection from the speech was not as performant as ERANNs or Zeta Policy learning, still managing an accuracy of 63.5%. The video emotion detection system produced results that are almost at par with the state of the art, with an accuracy of 99.66%. Due to its "on-policy" learning process, the PPO algorithm was extremely rapid to learn, allowing the simulated dog to demonstrate a remarkably seamless gait across the different cadences and variations. This enabled the quadruped robot to respond to generated stimuli, allowing us to conclude that it functions as predicted and satisfies the aim of this work.
translated by 谷歌翻译